🔨核方法(Kernel Methods)

1. 线性不可分

在机器学习中,以最简单的二分类问题为例,我们经常会遇到一些线性不可分的数据,比如下图

但如果将特征映射到另外一个(高维)空间中,数据就可能变成线性可分的了

假设我们现在有两个特征,即 $\mathbf{x}=(x_1,x_2)$,且用线性分类器 $y=\mathbf{w}^{\mathrm{T}}\mathbf{x}$ 无法将数据集 $\mathcal{D}=\{\mathbf{x}^{(1)},\cdots,\mathbf{x}^{(m)}\}$ 分开。但如果将输入数据映射到三维空间中:比方说 $\phi(\mathbf{x})=(x_1^2,\sqrt{2}x_1x_2,x_2^2)$,我们生成了一个新的数据集 $\mathcal{D}’=\{\phi(\mathbf{x}^{(1)}),\cdots,\phi(\mathbf{x}^{(m)})\}$,而它是可分的,分类器变成了 $y=\mathbf{w}^{\mathrm{T}}\phi(\mathbf{x})$(两个 $\mathbf{w}$ 含义不同),将其展开即为 $y=w_1x_1^2+w_2\sqrt{2}x_1x_2+w_3x_2^2$。可以看出,进行特征映射后,新的高维(三维)线性分类器在低维度(二维)上是非线性的,所以可以将原空间的非线性界线转换成高维的线性界线。